查看原文
其他

杭州常住人口究竟有多少?

同济大学&慧眼 百度地图慧眼 2019-09-12

杭州常住人口究竟有多少?

——基于时空大数据测算结果的比较与讨论


作者:岳雨峰 阚长城 王海任 钮心毅

本报告由百度地图慧眼与同济大学建筑与城市规划学院空间分析和决策支持实验室联合研究发布,合作双方发挥各自在时空大数据分析研究领域的资源、技术优势,形成一系列在城乡规划行业中具有前瞻性的研究成果,并不断促进研究成果的转化与应用。双方协作研究的领域涵盖城镇化发展动态监测与预测、城市空间分析评估与模拟、城市空间决策支持与咨询、人工智能与城市智慧管理、空间规划新技术创新等。



文章来源于笔者在运用时空大数据测算杭州市常住人口中所发现异常结果,以百度慧眼数据、手机信令数据两组独立数据源,通过对两组数据源结果的自我检验与比较,讨论了基于时空大数据测算所获得的2017年末至2018年初杭州市常住人口规模总量的可靠性。本文分享了运用时空大数据进行城市常住人口测算与数据结果检验中的相关注意要点,并探讨了依托时空大数据测算城市常住人口的实用价值。认为将针对城市人口的大数据测算方法作为一种辅助传统调查统计方法的监测工具具有不可忽视的现实意义。百度慧眼数据在监测城市人口变化趋势方面,具有监测数据周期长、计算分析高效、空间统计单元可变等特点。

基于时空大数据测算结果的困惑——

常住人口测算结果远超统计局公布统计数据

1

基于百度慧眼数据的原始常住人口识别数与识别率计算

百度慧眼基于百度地图开放平台的去隐私化定位数据,经过脱敏和清洗处理,利用空间聚类算法对移动设备半年的定位信息进行聚类。整合定位簇和POI属性等信息,提取定位属性、时间分布、用户画像、位置属性以及WIFI属性超过60多项特征,利用深度学习技术挖掘得到精度高、覆盖广、动态更新的设备常驻点信息,推算为杭州市原始用户设备识别数,也即百度慧眼直接识别的用户数。为了便于原始设备识别数与统计部门统计数据中常住人口规模的比较,笔者将原始设备数识别数定义为原始常住人口识别人数(见图1.)。

在检验百度慧眼数据原始常住人口统计结果的可靠性检验中,笔者参考了杭州市统计局于2018年2月5日发布的《2017年末杭州市常住人口情况简析》报告内的各区、县(市)常住人口一览表。以统计部门所发布数据报告为基础,分析百度慧眼数据所识别原始常住人口数在统计公布的常住人口中的占比情况,即“百度慧眼数据的原始常住人口识别率”(见表1.)。

注:杭州市统计局所发布的“2017年末各区、县(市)常住人口一览表”中涉及“杭州经济技术开发区”、“西湖风景名胜区”、“大江东产业集聚区”的常住人口均已纳入各行政区人口中。(数据来源:杭州统计局,http://tjj.hangzhou.gov.cn/content-getOuterNewsDetail.actionnewsMainSearch.id=78333538-6229-11e8-97a6-d89d676397bf)

2

原始常住人口识别率的空间差异特征与杭州城市发展的空间圈层结构相当

由表1.可知,杭州市统计局公布2017年末常住人口为946.8万人,而基于2018年上半年百度慧眼所识别出常住地在杭州市的用户数为877.56万人,若以统计常住人口计算,基于百度地图慧眼的原始常住人口识别率为93%。其中余杭区(126%)、滨江区(111%)、萧山区(104%)、江干区(104%)均远超常住人口识别率的平均值。显著相反的情况则发生在淳安县(54%)、建德市(61%)、临安区(62%)等区县中,其常住人口识别率均远小于均值。同时,处于老城区的上城区(74%)、下城区(74%),与处于城市郊区的富阳区(77%)、桐庐县(73%)均呈现相近的原始常驻人口识别率特征。

上述的识别率差异特征可以结合杭州市区县的空间区位特征简单归纳为三种类型,其一便是处于城市中心区边缘地带的余杭、滨江、萧山、江干四区,百度慧眼数据识别率远高于均值;其二是处于城市远郊地带的淳安、建德、临安三区县,百度慧眼数据识别率远低于均值;其三是处于城市中心区或城市近郊区的上城、下城、富阳、桐庐四区县,百度慧眼数据识别率结果较为相近。由此可知,2018年上半年百度慧眼数据所识别原始常住人口与杭州市统计部门公布的2017年末常住人口数据的常住人口识别率呈现空间区位上的极大差异,并且识别率的空间差异性特征与杭州市的城市发展圈层结构相当(见图2.)。

3

剔除数据自身的质量与计算问题,提出统计公布常住人口失真的猜想


基于笔者运用相关时空大数据方法进行城市人口规模测算的早前经验,时空大数据识别常住人口的计算结果通常会出现识别率略偏高现象,这一现象往往受到手机用户的使用特点影响,即存在一人多账户,多设备更换使用的客观情况,导致了一个自然人的时空轨迹被重复计算识别的可能性大增。百度慧眼较早认识到了这一问题,基于这一用户使用特征,利用百度IDMapping与深度学习技术对百度全网用户设备和账号信息进行打通,以此过滤一人多设备、多账户的使用习惯而可能导致的用户识别量偏高现象。

更为重要的是,百度地图开放平台开发者市场份额达到75%,除百度系的App外,相当规模的手机系统和手机App均使用百度定位服务,百度慧眼数据覆盖用户覆盖率非常高,应当能够更全面地覆盖各年龄、各阶层用户。一般情况下,在杭州中心城区(上城区、下城区)与城市远郊区县(淳安县、建德市、临安区)的常住人口识别率不应当远低于城市中心城区边缘区(余杭区、滨江区、萧山区、江干区)的常住人口识别率。

因此,在反复检验百度慧眼数据质量的基础上,初步推测杭州市各区实际常住人口总量、空间分布已经发生了较大变化。这一变化导致了百度慧眼所识别常住人口总量在部分区县激增或骤减的计算结果,同时也意味着统计公布的杭州常住人口数可能已经失真。

针对时空大数据的自我检验与讨论——

常住人口年龄结构的空间分布特征解读识别率结果

1

处于中青年就业年龄段、及非就业年龄段常住人口的空间特征

为了验证对杭州市各区实际常住人口总量变化推测的成立,笔者运用百度基于全网用户去隐私化数据,利用深度学习技术挖掘得到的用户画像功能,测算了杭州市常住居民在不同年龄段内的各区空间分布情况(见图3.& 图4.)。

以杭州市市域范围为研究对象,通过杭州市域范围内各镇、街道统计单元中18至35周岁常住居民的空间分布情况可以初步判断,滨江区、萧山区、江干区、余杭区四区的中青年就业年龄段的人口占比最高,大致处于60%-75%区间内。这意味着以上四区内常住居民的年龄结构构成呈现极不均衡特征,即中青年就业年龄段人群存在空间上明显聚集现象,并且这一占比远高于一般城市内中青年就业年龄段人群的人口占比。相对地,通过杭州市域范围内各镇、街道统计单元中18周岁以下、65周岁以上常住居民的空间分布情况可以初步判断,滨江区、萧山区、江干区、余杭区、拱墅区五区内非就业年龄段的人口占比最低。而位于杭州市远郊的临安区、富阳区、桐庐县、淳安县、建德市等区县内非就业年龄段的人口占比较高。

这表明了在杭州市域内,滨江区、萧山区、江干区、余杭区四区出现了中青年人口占比明显过高的现象,其余区县中青年人口占比趋近正常的现象。

2

针对中青年就业年龄段常住人口占比较大的现象解释识别率异常现象


通常情况下,18至35周岁城市常住人口属于中青年就业年龄段,往往是城市中最为活跃的劳动力群体,城市外来务工人员更以该年龄段人群为主体构成。特大城市发展的一般规律表明,中心城区边缘区(近郊区)是吸引外来就业人员的首要区域。这一圈层区域一般集中了城市主要的工业制造业,是吸引外来务工人员的主要就业影响因素。同时,以外来务工人员为主的常住人口主要选择中心城区边缘区居住,这一圈层区域既保障了邻近就业岗位的短距离通勤需要,又具有相对中心城区较低房租、房价的住房选择优势。

笔者认为,百度慧眼数据所揭示的中青年就业年龄段劳动力人口的空间集聚现象恰恰符合特大城市边缘区发展的一般规律。以18至35周岁外来务工人员为主的外来常住就业人口在滨江区、萧山区、江干区、余杭区四区的迅速集聚,导致了实际常住人口的快速增长,因为在2018年上半年百度慧眼数据的常住人口规模识别中产生了远超预期的测算结果。

诚然,针对百度慧眼数据高识别率现象的成因还存在另一种解释途径,即杭州市中心城区、中心城区边缘区、城市远郊区等不同圈层区域内的常住居民具有显著不同的手机移动设备使用特征。杭州市中心城区边缘区常住居民存在极高比例的一人多设备现象,且百度慧眼目前的一人多设备优化算法仅仅对中心城区与城市远郊区常住居民有效,却对中心城区边缘区常住居民无效。

笔者相信前述的简单解释逻辑,以中青年为主体的外来常住人口在滨江区、萧山区、江干区、余杭区等中心城区边缘、近郊区集聚,导致滨江区、萧山区、江干区、余杭区等区的实际常住人口远大于统计公布数据;当我们仍然以统计公布数据为分母计算识别率时,自然会出现识别率过高,甚至大于100%的异常结果。因此可以通过计算中青年就业年龄段常住居民的空间分布特征,推算2018年上半年杭州市的实际常住人口规模应当远高于统计部门公布的数据结果。

3

百度慧眼数据扩样后常住人口与公布统计数据结果的横向比较


基于百度原始设备数扩样后的2018年杭州市常住人口规模推测值为1269.2万(见表2.)。通过对百度慧眼数据针对杭州常住人口的扩样估算值与杭州市统计局发布的常住人口调查值之间的横向比较,不难发现在中心城区的上城区、下城区及城市远郊的富阳区、临安区、桐庐县、淳安县、建德市等区县内,大数据所识别推算的常住人口与统计公布的常住人口结果较为接近。在上述两类城市圈层区域内,百度慧眼数据与统计公布数据提供了相近的常住人口结果,可以初步判断在该区域内常住人口数没有发生大规模的变动,统计部门公布的常住人口数应当具有更高的可信度。

然而,在萧山区、余杭区、江干区、滨江区、西湖区、拱墅区等杭州中心城区边缘区内,百度慧眼大数据得出了远远高于传统统计调查结果的常住人口规模。这表明了表2中至少有一组常住人口数据有误。结合前述针对中青年就业年龄段人口空间分布的检验,笔者相信百度慧眼数据所测算的萧山区、余杭区、江干区、滨江区、西湖区、拱墅区等区常住人口具有相对更高的可信度。

表2-百度慧眼测算2018年杭州全年常住人口规模

由此推算杭州市2017年末至2018年初的实际常住人口规模总量应当远高于统计部门得出的946.8万人,杭州市统计局所公布部分区县人口数量已经失真,导致全市人口总数低于实际值。

当然仅仅依托单一数据源解释百度慧眼数据自身的计算结果尚不足为凭,还需其他来源的时空大数据,通过另一套独立逻辑测算杭州全市常住人口的结果进行比较论证。

手机信令数据与百度大数据计算结果相佐证

1

手机信令数据同样验证了百度慧眼数据对杭州市人口增长趋势的判断


为了论证百度地图慧眼时空大数据对杭州常住人口所作的测算,笔者同时采用浙江移动所提供的2017年4月整月的手机信令时空大数据进行杭州常住人口的测算。针对手机信令数据采用时间累计计算法,在剔除物联网卡后,从移动时空定位数据中识别出手机用户的居住地。按照手机用户60%以上日期居住地在同一城市的标准,推算为杭州市常住手机用户。

通过百度慧眼数据、手机信令数据、传统调查数据结果的横向比较,可以初步判断,基于百度地图慧眼大数据所识别的杭州常住人口与基于手机信令数据所识别的杭州常住人口在各区空间统计单元上呈现较为相似的特征(见表3.)。其中,在中心城区的上城区、下城区,城市远郊区的富阳区、临安区、桐庐县内,三组数据的校核结果较理想。在城市远郊区的淳安县、建德市内,两种大数据测算结果较一致,但略小于统计公布数据。

但在中心城区边缘区的江干区、拱墅区、西湖区、滨江区、萧山区、余杭区内,百度慧眼数据、手机信令数据所识别常住人口具有较高的一致性,且远高于统计公布人口数据。以杭州市主城区的九区为研究对象,同样计算百度慧眼大数据相较于统计公布常住人口的各区识别率(见图5.),可以直接地判断百度慧眼数据与手机信令数据的常住人口识别率在空间分布上呈现相似特征(见图6.)。这再一次证明了统计公布数据在以上几个区县的人口测算数存在失真的可能,杭州的城市外来常住人口已经在中心城区外围地域大量增加的假设应当成立。

表3 - 传统调查数据、手机信令数据、百度慧眼时空大数据所识别常住人口汇总


2

利用合计百分比比较三组数据源所识别常住人口数在空间统计单元上的占比特征,百度慧眼数据与手机信令数据在各统计单元内具有更高的一致性。


为了能够横向比较公布统计数据、百度慧眼数据、手机信令数据所识别常住人口在空间分布上的规模差异,笔者通过三组数据源各自的合计百分比进行差异比较。其反映了公布统计常住人口数(红色)、百度数据所识别常住人口数(深蓝)、手机信令数据所识别常住人口数(浅蓝)在区县统计单元层面的构成比特征(见图7.)。以萧山区、余杭区、江干区三个中心城区外围区县为例,百度数据与手机信令数据所识别常住人口在总人口中的占比显著高于统计常住人口数量在总人口中的占比。而以建德市、淳安县、桐庐县三个城市远郊区县为例,百度数据与手机信令数据所识别常住人口在总人口中的占比显著低于统计常住人口数量在总人口中的占比。百度慧眼数据与手机信令数据从常住人口识别总数、常住人口识别率、常住人口数合计百分比三个指标看,均具有更加相似的数据特征。

总体而言,百度慧眼大数据、手机信令数据针对杭州市常住人口规模所做的测算具有较高的一致性,印证了在城市外来人口迅速增加的快速发展阶段,传统人口调查方法在测算城市常住人口规模中的局限性。结合百度慧眼数据、手机信令数据对杭州市常住人口的测算结果,笔者认为2017年末杭州市实际常住人口规模已经远超公布统计所示的946.8万人。这是外来常住人口快速增加导致的。

3

杭州城市人口规模的快速增长现象恰如2010年前上海城市人口规模激增现象的重现


表4.记录了2010、2011两个年度上海统计年鉴对2009年末全市常住人口的统计数据。第六次全国人口普查前的上海2010年统计年鉴中针对2009年末的全市常住人口公布数为1921.32万人,其中外来人口541.93万人。经过“六普”调查数据校正后的上海2011年统计年鉴中,2009年末的常住人口公布数修正为2210.28万人。同一年常住人口统计结果经过人口普查校正后,增加了288.96万人。尤其值得注意,两份公布统计数据所记录的2009年末户籍人口仅增加了11.31万人,而外来常住人口增加了277.65万人。

由此不难发现,2010年以前上海外来就业人口的激增现象,导致了2010年统计年鉴中公布统计数据的相对失真情况。在特大城市快速城市化阶段,外来常住人口的快速增长与空间集聚现象有史可循,笔者相信十年前发生在上海常住人口测算中的统计失真现象也发生在了当前的杭州市,故此造成了基于时空大数据所测算的杭州常住人口发生了远超预期的超高识别率现象。

(数据来源:上海统计局,http://www.stats-sh.gov.cn/)

结论

通过基于两种时空大数据测算结果验证,及其与对杭州统计公布常住人口数量的比较,笔者认为:

(1)针对常住人口大数据计算结果的检验不可或缺。运用时空大数据调查城市常住人口的方法仍需不断地进行算法优化与实际检验,尤其是使用时空大数据所进行的数据统计计算需要时刻牢记数据“检验”的思想。例如在针对杭州城市人口的研究中,基于百度慧眼数据的原始常住人口识别率约为93%,虽然无法排除普遍存在的一人多设备、多账户、频繁更换设备的移动设备使用特点,但这些特点显然不够解释时空大数据所识别常住人口的高识别率现象。因此需要遵循数据检验的思路,依托数据可视化的方法,结合城市发展与人口集聚的一般规律,剖析大数据常住人口识别率的空间分布特征,反复筛查大数据计算结果超出预期的原因。

(2)运用时空大数据进行城市常住人口测算时,相比关注大数据计算结果的绝对数,更应该关注大数据计算结果所反映的人口变化趋势。以杭州常住人口测算为例,百度慧眼数据、手机信令数据两组数据所测算的杭州城常住人口在空间分布存在相似的识别率特征。从城市圈层划分视角看,两种数据源的计算结果在杭州中心城区的核心圈层与城市远郊区的外围圈层识别率普遍较低,而在城市中心边缘区的中间圈层显示远超正常现象的高识别率特征。两组独立数据源确定无疑地揭示了实际常住人口在中间圈层区域所发生的显著增长趋势。相比常住人口的绝对数,人口空间分布变化、总量趋势是更值得关注的结果。

(3)基于大数据的城市常住人口计算方法是一种监测区域人口变化的有效工具,尤其针对城乡人口大量流动、大规模变化的区域,可以作为辅助传统统计方法的重要辅助手段。应当将时空大数据手段的计算结果看成是对传统调查方法所得结果的再认知过程,是对传统人口调查动态跟踪局限性的有效弥补手段。因此,以百度慧眼为代表的时空大数据人口统计结论更适合作为辅助传统方法,进行人口动态跟踪的一种监测工具。同样在针对杭州常住人口的研究中,依托百度慧眼大数据、手机信令数据的常住人口测算方法有助于更便捷、更经济、更高效地判断杭州市内常住人口短期内的变化情况。使用时空大数据测算、监测常住人口较适用于在相隔10年的2次人口普查之间阶段,能有效地推测城市人口的空间分布变化态势,从而判断常住人口变化的准确趋势。

综上所述,针对杭州城市常住人口的研究,不仅是为了证明以百度慧眼大数据为代表的时空大数据人口测算方法相较于传统城市人口调查统计方法所具有的优势,也不仅只是为了论证杭州市常住人口在短期内所发生的快速增长现象,而是希望借这一实践案例向读者们明确,采用时空大数据研究城市问题时,对数据计算结果的验证与数据算法的检验同样至关重要。在时空大数据的研究中需要时刻怀揣对手头数据的“质疑精神”,只有不断质疑、反复验证自身的计算结果才能求得趋近于真相的数据分析结果,才能使得大数据的计算方法与结论受到越来越多的认可。最后,时空大数据的计算结果依然会受到多方质疑,但笔者相信当前时期杭州实际常住人口显著增长是不争事实,针对“杭州常住人口有多少”的疑问待2020年第七次全国人口普查后自会揭晓。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存